[摘譯]
「資料驅動的決策流程」(data-driven decision making)目前普遍被認為是個聰明的做法, 但是有時候太過依賴資料,一些「看似真的卻不見得」的情況,反而會導致蒙受損失或增加意外的風險。這些資料分析結果的誤讀,可能是來自於資料本身的偏差,也可能是收集或分析資料的人造成的偏差。
常見的七種偏誤有:
確認偏誤(Confirmation Bias)
確認偏誤是最常見的人類的認知偏誤。當我們有預設的立場,有意或無意的想要證實某種假設或意見時,最常發生這種偏誤:我們會因為「感覺對了」,而主動去忽略某些「不支持這個看法」的細節,甚至想盡辦法讓資料支持原本的假設。選擇性偏誤(Selection Bias)
資料的選擇過程往往不是完全隨機的,因此分析結果可以被延伸推論的程度,往往受到「怎麼選擇資料」的影響。尤其在資料爆炸的今日,如何在大數據裡選擇適當的、有代表性的部份來分析,對於分析的結果有很大的影響。
[譯按]
上述的七個現象,前兩個比較屬於人心智上常見的認知謬誤,而後五個比較屬於統計和實驗設計的專業,大概所有「資料密集」的專業領域都會遇到。在商業上,後面五項通常可以由專業團隊來把關,但是作為決策者就要自己特別注意前面兩項了。
現實中有時候「認知謬誤」也是不得不然。當老闆語重心長的告訴你:「資料分析出來的結果,應該是支持我的提案的,對不對?」明白人都知道,是該犯一下選擇性偏誤來造成確認偏誤的時候了。當然,作為資料科學家,有時候也要有說不的骨氣。
離群值(Outliers)
資料當中難免會有一些超出一般範圍的極端值,如果沒有清理資料而只直接看平均的話,這些離群的極端值會影響平均數,進而導致誤判。離群值或異常值的判定與篩選,在大量自動收集的資料裡特別需要注意。辛普森悖論(Simpson’s Paradox)
當資料包含了不同性質的群體時,有時候在個別群體裡非常明顯的趨勢或現象,在把所有群體合併之後反而看不到,甚至呈現相反的狀況。辛普森悖論在「大數據」的時代尤其容易發生,它基本上可以解釋我們平常看到的醫學研究結果之所以常常會互相矛盾,也可以解釋為什麼很多看似設計精妙的行銷手法到頭來卻全然沒有效果。過適(Over Fitting and Under Fitting)
有時候我們為了能解釋所有收集到的資料,而使用了太過複雜的理論,導致連不必要的雜訊也都解釋進去了,反而失去了類推到其他情況的能力。而有時候恰好相反,我們使用了過於簡化的理論,試圖能解釋一切,但資料裡卻處處有例外。「過適」在使用高維度非線性統計模型時特別容易發生。混淆變項(Confounding Variables)
有時候我們觀察到兩件事情A跟B之間的關聯性並不真切,因為背後其實是另外一個現象C同時造成了A和B,而這個C就是所謂的混淆變項。有時候資料是分別由不同組織收集然後合併在一起,分析的時候很容易被混淆變項所干擾。舉例來說,有家信用卡公司在三年內客戶的信用分數幾乎翻倍,而其他公司基本上沒有變化,但結果發現這家公司是由於三年內進行了大量的併購活動,才造成客戶信用分數的成長。並非所有的事情都是常態分布(Non-normality: The Bell Does Not Toll)
很多常用的統計工具(例如t-test),都假設資料是常態分布,但現實中的資料不見得都符合這個假設。遇到非常態分佈的資料,卻硬要套上鐘形曲線,分析的結果很可能導致錯誤的決策。[譯按]
上述的七個現象,前兩個比較屬於人心智上常見的認知謬誤,而後五個比較屬於統計和實驗設計的專業,大概所有「資料密集」的專業領域都會遇到。在商業上,後面五項通常可以由專業團隊來把關,但是作為決策者就要自己特別注意前面兩項了。
現實中有時候「認知謬誤」也是不得不然。當老闆語重心長的告訴你:「資料分析出來的結果,應該是支持我的提案的,對不對?」明白人都知道,是該犯一下選擇性偏誤來造成確認偏誤的時候了。當然,作為資料科學家,有時候也要有說不的骨氣。
沒有留言:
張貼留言